Modelo estocástico de traducción basado en N-gramas de tuplas bilinges y combinación log-lineal de características
نویسندگان
چکیده
This communication introduces a stochastic machine translation system based on Ngram modelling of the joint probability of bilingual texts. The basic unit of this model is called a tuple and consists of a pair of both source (to be translated) language and target language (translation) word-strings. Translation is driven by a log-linear combination of the N-gram model probability and other features, according to the maximum entropy language modelling approach. The translation performance is evaluated by means of a speech-to-speech translation tasks: translation from Spanish to English (and viceversa) of European Parliament speeches. The system reaches a state-of-art performance.
منابع مشابه
Estudio Bidireccional de un Sistema de RI Multilingüe Basado en Traducción de n-Gramas
Resumen Continuando nuestra investigación sobre el empleo de ngramas de caracteres como unidad de traducción en sistemas de RI Multilingüe, este art́ıculo analiza el comportamiento de nuestra solución en direcciones inversas de traducción a partir de sendos experimentos paralelos con consultas en inglés sobre textos en español y viceversa. Lo positivo de los resultados corrobora la validez de nu...
متن کاملClasificación de servicios Web mediante una red neuronal artificial usando n-gramas de palabras
Resumen. Este artículo presenta un enfoque basado en n-gramas de palabras para la clasificación automática de servicios Web utilizando una red neuronal artificial de tipo perceptrón multicapa. Los servicios Web contienen información de gran utilidad para lograr una clasificación basada en la funcionalidad del mismo. El enfoque se basa en n-gramas de palabras extraídas de la descripción del serv...
متن کاملSistema de reconocimiento multilenguaje del habla
Resumen. Este trabajo se comienza con la presentación de una serie de art́ıculos relacionados con el Reconocimiento Automático del Habla. Se realiza un análisis de cada uno de ellos donde se obtienen datos relevantes y los que serán de gran ayuda para desarrollar la propuesta multilenguaje de un sistema de reconocimiento del habla aqúı descrito. Existen varias técnicas que son aplicadas para log...
متن کاملVariabilidad, Trazabilidad y Líneas de Productos: una Propuesta basada en UML y Clases Parciales
Uno de los problemas clave en el desarrollo de una línea de productos software es la representación y gestión de la parte común y variable de la misma. La forma habitual de definir ambos aspectos es mediante modelos de características o features que además permiten seleccionar la configuración de cada aplicación concreta dentro de la línea de productos. Sin embargo la trazabilidad entre los mod...
متن کاملComparación y combinación de los sistemas de traducción automática basados en n-gramas y en sintaxis
In this paper we shall compare two approaches to machine translation: the Syntax Augmented Machine Translation system (SAMT), which is a syntaxdriven translation system, underlain by phrase-based model, and the n-gram-based Statistical Machine Translation (SMT), in which a translation process is based on statistical modeling of the bilingual context. We provide a step-by-step comparison of the ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 35 شماره
صفحات -
تاریخ انتشار 2005